데이터분석 준전문가 38회

데이터 이해


1. 데이터베이스의 구성 요소에 대한 설명이다. 각각 무엇에 대한 설명인가?
가. 데이터를 설명해주는 데이터로 데이터의 특성, 구조, 정의 및 관리 정보를 설명하는 데이터
나. 데이터를 빠르고 쉽게 찾을 수 있게 해주는 자료 구조
  •  가) 테이블, 나) 인덱스
  •  가) 메타 데이터, 나) 인덱스
  •  가) 메타 데이터, 나) 속성
  •  가) 테이블, 나) 속성

2. 다음 중 상용 DB가 아닌 것은 무엇인가?
  •  DB2
  •  Tableau
  •  SQL Server
  •  Oracle

3. 데이터 크기를 작은 것 부터 큰 것 순서로 올바르게 나열한 것은?
  •  PB < EB < ZB < YB
  •  PB < YB < EB < ZB
  •  YB < ZB < EB < PB
  •  PB < ZB < EB < YB

4. 다음 데이터베이스의 특징에 대한 설명 중 옳지 않은 것은 무엇인가?
  •  통합된 데이터로 동일한 내용의 데이터가 중복되어 저장된다.
  •  저장된 데이터로 컴퓨터가 접근할 수 있는 저장 매체에 저장된다.
  •  공용 데이터로 여러 사용자에게 서로 다른 목적으로 데이터가 공동 이용된다.
  •  변화되는 데이터로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지해야한다.

5. 다음 중 빅데이터 활용을 위한 3요소에 대한 내용으로 틀린 것은?
  •  데이터 : 모든 것의 데이터화
  •  기술 : 진화하는 알고리즘 , 인공지능
  •  인력 : 데이터 사이언티스트, 알고리즈미스트
  •  프로세스 : 이전과는 다른 데이터 관리를 위한 작업절차

6. 다음 중 빅데이터로 인한 본질적인 변화로 옳지 않은 것은?
가. 이미 가치가 있을 것이라고 정해진 특정한 정보만 모아서 처리하던 것을 가능한 많은 데이터를 모으고 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
나. 일부 데이터의 샘플링을 통한 표본조사를 수행하는 환경으로 변화되었다.
다. 질보다 양의 관점을 갖는다.
라. 인과관계에 의한 미래 예측이 데이터 기반의 상관관계 분석을 점점 더 압도하는 추세이다.
  •  가, 나
  •  나, 라
  •  가, 다
  •  다, 라

7. 빅데이터의 위기 요인이 아닌 것은?
  •  익명화
  •  사생활 침해
  •  데이터 오용
  •  책임원칙의 훼손

8. 데이터 사이언티스트가 가져야 할 역량 중 종류가 다른 하나는?
  •  다분야간 협력
  •  통찰력 있는 분석
  •  설득력 있는 전달
  •  빅데이터에 대한 이론적 지식

9. 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화 시키기 위한 솔루션은 무엇인가?

10. 데이터, 정보, 지식을 통해 최종적으로 지혜를 얻어내는 과정을 계층구조로 설명하는 것은 무엇인가?

데이터분석 기획


11. 데이터 분석 수준 진단 결과에서 분석 준비도와 분석 성숙도 둘 다 낮은 경우에 해당하는 것은?
  •  정착형
  •  확산형
  •  준비형
  •  도입형

12. 다음 중 비즈니스 모델 캔버스를 활용한 과제 발굴 영역으로 틀린 것은?
  •  혁신
  •  업무
  •  고객
  •  제품

13. 다음 분석과제의 우선순위 선정 관련 설명 중 틀린 것은?
  •  우선순위를 시급성에 둔다면 III - IV - II 순서로 진행한다.
  •  우선순위를 난이도에 둔다면 III - I - II 순서로 진행한다.
  •  시급성과 난이도 둘 다 높은 것이 우선순위가 가장 높다.
  •  시급성의 판단 기준은 전략적 중요도가 핵심이다.

14. 다음 분석 성숙도 관련 내용으로 옳지 않은 것은?
  •  유사 업종, 경쟁 업체와의 비교 분석을 포함한다.
  •  성숙도 수준에 따라 도입, 활용, 확산, 최적화 단계로 구분해 살펴 볼 수 있다.
  •  시스템 개발 업무능력과 조직의 성숙도 파악을 위해 CMMI 모델을 활용하여 분석 성숙도를 평가한다.
  •  데이터 분석 수준 진단은 분석 준비도와 분석 성숙도를 함께 평가함으로써 수행될 수 있다.

15. 분석 마스터플랜 수립 시 적용 범위/ 방식의 고려 요소가 아닌 것은?
  •  업무 내재화 적용 수준
  •  분석 데이터 적용 수준
  •  기술 적용 수준
  •  실행 용이성

16. 데이터 분석을 위한 분석 업무 조직 구조에 대한 설명으로 옳지 않은 것은?
  •  집중형 조직 구조는 일부 협업 부서와 분석 업무가 중복 또는 이원화 될 가능성이 있다.
  •  기능 중심 조직 구조는 전사적 관점에서 핵심 분석이 어렵다.
  •  분산 조직 구조는 분석 결과 실무 적용에 대한 대응이 느리다.
  •  분석 조직의 인력들이 협업 부서에 배치되어 업무를 수행하는 것은 분산 조직 구조이다.

17. 분석 활용 시나리오에 대한 설명으로 틀린 것은?
  •  데이터 확보가 가장 중요하다.
  •  데이터 분석을 특정 목적에 맞게 활용하는 방법 또는 계획을 의미한다.
  •  분석 목표와 분석 방법을 설명하고 예상 결과를 제시하는 문서이다.
  •  프로젝트 진행 중에도 변경될 수 있다.

18. 분석 기획 시 고려해야 할 것으로 적절하지 않은 것은?
  •  데이터 확보가 될 수 있는지, 데이터 유형에 대한 분석이 필요하다.
  •  비용보다 분석력에 최우선 해야 한다.
  •  기준에 잘 구현되어 활용되고 있는 유사 시나리오 및 솔루션을 최대한 활용한다.
  •  장애요소에 대한 사전 계획 수립이 고려 되어야 한다.

19. 데이터 분석 준비도 프레임워크에서 운영 시스템 데이터 통합, EAI ETL등 데이터 유통체계 분석 및 전용 서버 및 스토리지, 빅데이트 분석 환경, 비주얼 분석 환경 등과 관련된 항목은 무엇인가?

20. 다음 빈칸에 알맞은 용어는 무엇인가?
기존의 논리적인 단계별 접근법에 기반한 문제 해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있다. 이를 해결하기 위해 (        ) 접근법을 통해 전통적인 분석적 사고를 극복하려고 한다. 
이 접근법은 상향식 방식의 발산단계와 도출된 옵션을 분석하고 검증하는 하향식 접근방식의 수렴단계를 반복하여 과제를 발굴한다.

데이터분석


21. 수면 유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?
  •  수면유도제 2가 수면유도제 1보다 효과적이다.
  •  유의수준 0.05하에서 두 집단의 평균이 동일하다는 귀무가설을 채택할 수 있다.
  •  두 개의 표본 집단이 크기가 클경우(N>30) 집단의 정규성 검증없이 이 표본 t검정을 사용할 수 있다.
  •  독립표본 t검정 분석 전에 등분산 검정을 실시한다.

22. 다음 중 분류 모형 평가에 사용되는 도구가 아닌 것은?
  •  ROC 그래프
  •  덴드로그램
  •  향상도 곡선
  •  이익 도표

23. 증거가 확실할 때 가설 검정으로 증명하고자 하는 것은?
  •  귀무 가설
  •  영가설
  •  대립 가설
  •  기각 가설

24. 다음 중 성격이 다른 한가지는?
  •  K-Means
  •  Single Linkage Method
  •  DBSCAN
  •  주성분분석

25. 다음 중 스피어만 상관계수 관련 설명으로 틀린 것은?
  •  스피어만 상관 계수는 비선형적인 관계를 나타낼 수 없다.
  •  대상 자료는 서열 척도를 사용한다.
  •  원시 데이터가 아니라 각 변수에 대해 순위를 매긴 값을 기반으로 한다.
  •  연속형 외에 이산형 데이터도 사용 가능하다.

26. 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화하는 알고리즘을 무엇이라고 하는가?
  •  SOM
  •  DBSCAN
  •  PCA
  •  EM 알고리즘

27. 다음의 설명에 해당하는 것은?
공분산행렬 또는 상관계수 행렬을 사용해 모든 변수들을 가장 잘 설명하는 변수를 찾는 방법으로, 상관관계가 있는 변수들을 선형 결합에 의해 상관관계가 없는 새로운 변수를 만들고 분산을 극대화하는 변수로 축약하는 방법으로 새로운 변수들은 변수들의 선형결합으로 이루어져 있다.
  •  요인 분석
  •  회귀 분석
  •  주성분 분석
  •  다차원 척도법

28. 다음 중 확률 및 확률 분포에 관한 설명으로 부적절한 것은?
  •  (사건A가 일어나는 경우의 수)/(일어날 수 있는 모든 경우의 수)를 P(A)라고 할 때 이를 A의 수학적 확률이라 한다.
  •  한 사건 A가 일어날 확률을 P(A)라 할 때 반복시행에서 사건 A가 일어난 횟수를 R이라 하면, 상대도수 R/N은 N이 커짐에 따라 확률 P(A)에 가까워짐을 알 수 있다. P(A)를 사건 A의 통계적 확률이라 한다.
  •  두 사건 A,B가 독립일 때 사건 B의 확률은 A가 일어났다는 가정하에서의 B의 조건부 확률과는 다르다.
  •  표본공간에서 임의의 사건 A가 일어날 확률 P(A)는 항상 0과 1사이에 있다.

29. 다음은 TV광고수에 따른 Sales에 대한 산점도이다. 이에 대한 설명으로 맞지 않은 것은?
  •  TV 광고가 증가할 수록 Sales도 증가하는 경향이 있다.
  •  TV광고와 Sales는 양의 상관관계를 가진다.
  •  tv광고가 증가할수록 Sales의 분산은 동일하다
  •  Sales를 설명하기 위해 TV광고를 독립변수로 하는 단순선형회귀모델은 적절하다

30. Hitters dataset의 일부이다. 다음 설명 중 적절하지 않은 것은?
  •  Salary 변수 분포는 왼쪽 꼬리가 긴 분포를 가진다.
  •  NewLeague 변수는 범주형 자료이다.
  •  Hits 변수에는 결측값이 없음을 알 수 있다.
  •  HmRun 변수의 최대값은 40이다

31. 모집단의 크기가 비교적 작을 때 주로 사용되며 한번 추출된 표본이 재 추출될 수 있는 표본 추출 방법은 무엇인가?
  •  복원 추출법
  •  층화 추출법
  •  군집 추출법
  •  계층 추출법

32. 다음 닭 사료의 종류(feed)와 닭의 성장에 대한 boxplot 결과이다. 옳지 않은 것은?
  •  이상치가 존재하지 않는 것을 알 수 있다.
  •  casein의 경우horsebean보다 중위수가 크다
  •  soybean의 경우 meatmeal보다 최소값, 최대값이 모두 작다.
  •  horsebean사료를 먹은 닭의 무게가 가장 작은 쪽에 분포해 있다.

33. 자료의 척도에 대한 설명으로 부적절한 것은?
  •  명목 척도: 질적척도(Qualitative Scale)중 하나로 범주 또는 카테고리로 분류하는데 사용한다.
  •  서열 척도: 대소 또는 높고 낮음 등의 순위만 제공할 뿐 양적인 비교는 할 수 없다.
  •  등간 척도: 사칙연산이 가능하다.
  •  비율 척도: 절대 0점이 존재하여 측정값 사이의 비율 계산이 가능한 척도이다.

34. 다음 연관 분석에 대한 설명 중 잘못된 것은?
  •  비목적성 분석 기법으로 계산이 간편하다.
  •  대표적인 알고리즘으로 Aprior가 있다.
  •  조건 반응으로 표현되는 연관 분석의 결과를 이해하기 쉽다.
  •  품목 수가 증가해도 분석에 필요한 계산이 늘어나지 않는다.

35. 데이터 분할에 대한 설명 중 틀린 것은?
  •  데이터 마이닝 적용 후 결과의 신빙성 검증을 위해 데이터를 학습, 검증, 테스트 데이터로 나누어 사용한다.
  •  검증용 데이터는 모델 성능 평가에 사용한다.
  •  테스트용 데이터와 학습 데이터는 섞여서는 안된다.
  •  학습 데이터를 사용해 학습을 진행한다.

36. 다음 표준 오차에 대한 설명 중 틀린것은?
  •  표본 평균이 모 평균과 얼마나 떨어져 있는가를 나타낸다.
  •  표준 오차는 δ / √N 로 구한다.
  •  표준오차 95%는 신뢰구간에 모수의 참값이 포함되어 있음을 나타낸다.
  •  더 작은 표준 오차는 추정치가 모집단 파라미터를 더 정확하게 반영한다는 것을 나타낸다.

37. 아래의 불순도 측정 결과를 사용해서 구한 지니 지수는 얼마인가?
●●◆●●
  •  0.5
  •  0.32
  •  0.48
  •  0.38

38. 어떤 슈퍼마켓 고객 6명의 장바구니 별 구입 품목이 다음과 같다고 한다면, 연관 규칙(콜라→맥주)의 지지도는?
  •  0.6
  •  0.4
  •  0.5
  •  0.3

39. 다음의 품목/거래량 표를 사용하여 연관 규칙(딸기→사과)의 향상도는 무엇인가?
  •  0.3
  •  0.3 / (0.7*0.45)
  •  0.3 / 0.7
  •  0.3 / (0.7 + 0.45)

40. 다음 설명에 해당되는 앙상블 기법은?
여러 개의 붓스트랩 자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법.
  •  배깅(Bagging)
  •  Voting
  •  부스팅(Boosting)
  •  Stacking

41. 군집분석 관련 설명으로 틀린 것은?
  •  계층적 군집 분석은 사전에 군집 수 k를 설정할 필요가 없는 탐색적 모형이다.
  •  집단 간 이질화, 집단 내 동질화 모두 낮은 것을 군집으로 선택한다.
  •  K-means 군집은 잡음이나 이상값에 영향을 받기 쉽다.
  •  군집분석은 비지도학습이다.

42. 신경망 노드 중 무작위로 노드를 선정하여 다수의 모형을 구성하고 학습한 뒤 각 모형의 결과를 결합해 분류 및 예측하는 기법을 무엇이라고 하는가?
  •  Mini-Batch
  •  bagging
  •  Drop-out
  •  AdaBoost

43. 다음 회귀분석의 결과 해석으로 틀린 것은?
  •  결정계수는 0.9588이다.
  •  5% 유의수준에서 모형은 통계적으로 유의미 하다.
  •  Time이 1단 증가하면 Weight가 평균적으로 8.8 증가한다.
  •  추정된 회귀식은 weight = 24.4654 + 7.9879 * Time이다.

44. 독립 변수간 상관관계가 높아 많은 문제점을 발생하는 현상으로 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들게 되는 것을 다중 공선성이라고 한다. 이것의 해결 방법으로 사용할 수 있는 것은?
  •  주성분 분석
  •  교차 분석
  •  오차 분석
  •  연관 분석

45. 시계열 분석에서 시계열 수준과 분산에 체계적인 변화가 없고, 주기적 변동이 없다는 것으로 미래는 확률적으로 과거와 동일하다는 것을 의미하는 용어는?

46. 다음 오분류표를 사용하여 F1 Score를 구하시오.

47. 다음 빈칸에 알맞은 단어는?
완전 연결법이라고도 하며, 두 군집 사이의 거리를 군집에서 하나씩 관측 값을 뽑았을 때 나타날 수 있는 거리의 (           )을 측정한다.

48. 다음 주성분 분석 결과에서 주성분 1개를 사용했을 때 분산을 구하시오.

49. 생물학적 진화과정을 모방하여 최적화 및 검색 문제를 해결하는데 사용되는 계산 알고리즘으로 다양한 해를 탐색하고 선택,교차,변이와 같은 유전 연산을 통해 최적의 해를 찾아내는데 효과적인 알고리즘은?

50. 모집단을 먼저 서로 겹치지 않는 여러개의 층으로 분할한 후, 각 층에서 단순 임의 추출법에 따라 배정된 표본을 추출하는 방법

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr